基于注意力的深网络已成功应用于NLP字段中的文本数据。然而,与普通文本词不同,它们在蛋白质序列上的应用造成额外的挑战。标准关注技术面临的这些未开发的挑战包括(i)消失注意评分问题和(ii)注意分布的高变化。在这方面,我们介绍了一种新颖的{\ Lambda} -Scaled注意技术,用于快速有效地建模蛋白质序列,这些蛋白质序列解决了上述问题。这用于开发{\ lambda} -scaled注意网络,并评估在蛋白质序列水平上实施的蛋白质功能预测的任务。对生物过程的数据集(BP)和分子函数(MF)的实验表明,基于标准注意技术(+ 2.01%),所提出的{\ Lambda} -scaled技术的F1分数值的F1评分值的显着改进(+ 2.01% BP和MF的+ 4.67%)和最先进的Protvecgen-Plus方法(BP的2.61%,MF的2.20%)。此外,在训练过程中,还观察到快速收敛(在时期的一半)和高效学习(在训练和验证损失之间的差异方面)也被观察到。
translated by 谷歌翻译
We propose a very fast frame-level model for anomaly detection in video, which learns to detect anomalies by distilling knowledge from multiple highly accurate object-level teacher models. To improve the fidelity of our student, we distill the low-resolution anomaly maps of the teachers by jointly applying standard and adversarial distillation, introducing an adversarial discriminator for each teacher to distinguish between target and generated anomaly maps. We conduct experiments on three benchmarks (Avenue, ShanghaiTech, UCSD Ped2), showing that our method is over 7 times faster than the fastest competing method, and between 28 and 62 times faster than object-centric models, while obtaining comparable results to recent methods. Our evaluation also indicates that our model achieves the best trade-off between speed and accuracy, due to its previously unheard-of speed of 1480 FPS. In addition, we carry out a comprehensive ablation study to justify our architectural design choices.
translated by 谷歌翻译
在计算机视觉领域,异常检测最近引起了越来越多的关注,这可能是由于其广泛的应用程序从工业生产线上的产品故障检测到视频监视中即将发生的事件检测到在医疗扫描中发现病变。不管域如何,通常将异常检测构架为一级分类任务,其中仅在正常示例上进行学习。整个成功的异常检测方法的家庭基于学习重建掩盖的正常输入(例如贴片,未来帧等),并将重建误差的幅度作为异常水平的指标。与其他基于重建的方法不同,我们提出了一种新颖的自我监督蒙面的卷积变压器块(SSMCTB),该卷积变压器块(SSMCTB)包括基于重建的功能在核心架构层面上。拟议的自我监督块非常灵活,可以在神经网络的任何层上掩盖信息,并与广泛的神经体系结构兼容。在这项工作中,我们扩展了以前的自我监督预测性卷积专注块(SSPCAB),并具有3D掩盖的卷积层,以及用于频道注意的变压器。此外,我们表明我们的块适用于更广泛的任务,在医学图像和热视频中添加异常检测到基于RGB图像和监视视频的先前考虑的任务。我们通过将SSMCTB的普遍性和灵活性整合到多个最先进的神经模型中,以进行异常检测,从而带来了经验结果,可以证实对五个基准的绩效改进:MVTEC AD,BRATS,BRATS,Avenue,Shanghaitech和Thermal和Thermal和Thermal罕见事件。我们在https://github.com/ristea/ssmctb上发布代码和数据作为开源。
translated by 谷歌翻译
最近在文献中引入了用于视频异常检测的自我监督的多任务学习(SSMTL)框架。由于其准确的结果,该方法吸引了许多研究人员的注意。在这项工作中,我们重新审视了自我监督的多任务学习框架,并提出了对原始方法的几个更新。首先,我们研究各种检测方法,例如基于使用光流或背景减法检测高运动区域,因为我们认为当前使用的预训练的Yolov3是次优的,例如从未检测到运动中的对象或来自未知类的对象。其次,我们通过引入多头自发项模块的启发,通过引入多头自我发项模块,使3D卷积骨干链现代化。因此,我们替代地引入了2D和3D卷积视觉变压器(CVT)块。第三,为了进一步改善模型,我们研究了其他自我监督的学习任务,例如通过知识蒸馏来预测细分图,解决拼图拼图,通过知识蒸馏估算身体的姿势,预测掩盖的区域(Inpaining)和对抗性学习具有伪异常。我们进行实验以评估引入变化的性能影响。在找到框架的更有希望的配置后,称为SSMTL ++ V1和SSMTL ++ V2后,我们将初步实验扩展到了更多数据集,表明我们的性能提高在所有数据集中都是一致的。在大多数情况下,我们在大道,上海the夫和Ubnormal上的结果将最新的表现提升到了新的水平。
translated by 谷歌翻译
半监督学习(SSL)是解决监督学习的注释瓶颈的主要方法之一。最近的SSL方法可以有效利用大量未标记数据的存储库来提高性能,同时依靠一小部分标记数据。在大多数SSL方法中,一个常见的假设是,标记和未标记的数据来自同一基础数据分布。但是,在许多实际情况下,情况并非如此,这限制了其适用性。相反,在这项工作中,我们试图解决最近提出的挑战性的开放世界SSL问题,这些问题并非如此。在开放世界的SSL问题中,目的是识别已知类别的样本,并同时检测和群集样品属于未标记数据中的新型类别。这项工作引入了OpenLDN,该OpenLDN利用成对的相似性损失来发现新颖的类别。使用双层优化规则,此成对相似性损失利用了标记的设置中可用的信息,以隐式群集新颖的类样本,同时识别来自已知类别的样本。在发现新颖的类别后,OpenLDN将Open-World SSL问题转换为标准SSL问题,以使用现有的SSL方法实现额外的性能提高。我们的广泛实验表明,OpenLDN在多个流行的分类基准上胜过当前的最新方法,同时提供了更好的准确性/培训时间权衡。
translated by 谷歌翻译
开放世界对象检测(OWOD)是一个具有挑战性的计算机视觉问题,其中任务是检测一组已知的对象类别,同时识别未知对象。此外,该模型必须逐步学习在下一个培训集中所知的新类。不同于标准对象检测,OWOD设置会对在潜在的未知物体上生成质量候选建议的质量挑战,将未知物体与背景中的未知物体分开并检测不同的未知物体。在这里,我们介绍了一种新的基于端到端的变换器的框架OW-DETR,用于开放世界对象检测。建议的OW-DETR包括三个专用组成部分,即注意力驱动的伪标签,新颖性分类和对象评分,以明确地解决上述OWOD挑战。我们的OW-DETR明确地编码了多尺度上下文信息,具有较少的归纳偏差,使得从已知类传输到未知类,并且可以更好地区分未知对象和背景之间。综合实验是对两个基准进行的:MS-Coco和Pascal VOC。广泛的消融揭示了我们拟议的贡献的优点。此外,我们的模型优于最近引入的OWOD方法矿石,绝对增益在MS-Coco基准测试中的未知召回方面的1.8%至3.3%。在增量对象检测的情况下,OW-DETR以Pascal VOC基准上的所有设置优于最先进的。我们的代码和模型将公开发布。
translated by 谷歌翻译
异常检测通常被追求为单级分类问题,其中模型只能从正常训练样本中学习,同时在正常和异常的测试样本上进行评估。在异常检测的成功方法中,一种杰出的方法依赖于预测屏蔽信息(例如修补程序,未来帧等)并利用相对于屏蔽信息的重建误差作为异常分数。与相关方法不同,我们建议将基于重建的功能集成为新颖的自我监督的预测建筑结构块。所提出的自我监督块是通用的,并且可以容易地结合到各种最先进的异常检测方法中。我们的块从带有扩张过滤器的卷积层开始,其中掩盖接收场的中心区域。得到的激活图通过通道注意模块传递。我们的块配备有损失,使得能够最小化接收领域中的遮蔽区域的重建误差。我们通过将其集成到几种最先进的框架中,以便在图像和视频上进行异常检测,提供对MVTEC AD,Avenue和Shanghaitech的经验证据提供了显着改进的经验证据。
translated by 谷歌翻译
检测视频中的异常事件通常被帧为单级分类任务,其中培训视频仅包含正常事件,而测试视频包含正常和异常事件。在这种情况下,异常检测是一个开放式问题。然而,一些研究吸收异常检测行动识别。这是一个封闭式场景,无法测试检测到新的异常类型时系统的能力。为此,我们提出UbnorMal,这是一个由多个虚拟场景组成的新的监督开放式基准,用于视频异常检测。与现有数据集不同,我们首次引入在训练时间的像素级别注释的异常事件,从而实现了用于异常事件检测的完全监督的学习方法。为了保留典型的开放式配方,我们确保在我们的培训和测试集合中包括Disjoint集的异常类型。据我们所知,Ubnormal是第一个视频异常检测基准,以允许一流的开放模型和监督闭合模型之间的公平头部比较,如我们的实验所示。此外,我们提供了实证证据,表明Ubnormal可以提高两个突出数据集,大道和上海学习的最先进的异常检测框架的性能。
translated by 谷歌翻译
Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.
translated by 谷歌翻译
从MRI和X射线等医学图像中自动检测的自动异常可显着减少人类在疾病诊断方面的努力。由于建模异常的复杂性以及领域专家(例如放射科医生)的高度手动注释成本,因此当前医学成像文献中的典型技术仅着重于从健康对象中得出诊断模型,假设该模型将检测到图像,来自患者作为异常值。但是,在许多实际情况下,与健康和患病患者混合在一起的未注释的数据集很丰富。因此,本文提出了一个研究问题,即如何通过(1)(1)(1)(2)(2)文献中使用的一组健康图像来改善无监督的异常检测。为了回答这个问题,我们提出了一种新型的单向图像到图像翻译方法的Healthygan,该方法学会了将图像从混合数据集中转换为仅健康图像。作为一方面的Healthygan,Healthygan放宽了现有未配对的图像到图像翻译方法的循环一致性的要求,这对于混合的未注释数据是无法实现的。一旦学习了翻译,我们通过减去其翻译输出来为任何给定图像生成差异图。差异图中显着响应的区域对应于潜在异常(如果有)。我们的Healthygan在两个公开可用的数据集上优于传统的最先进方法:Covid-19和NIH Chestx-Ray14,以及从Mayo Clinic收集的一个机构数据集。该实施可在https://github.com/mahfuzmohammad/healthygan上公开获得。
translated by 谷歌翻译